今天我們來講數學,我們來介紹機率與統計一個很有名的公式,柴比雪夫不等式,它長這樣
這公式不長,但也夠折騰人了,我們先說明一下柴比雪夫不等式的概念
不論以任何方式分布的數值,其大部分的數值都會非常接近平均值
相信已經有人可以想像為什麼柴比雪夫不等式可以幫助我們做異常值檢測,既然大部分的數值都會非常接近平均值,那麼那些少部分跟平均值差很多的數值,就是我們要找的異常值啦,為了瞭解這個公式,我們必須先了解一個高中學過的數學名詞標準差
標準差就是所有數值與平均值相差的平均程度
公式為
[3, 4, 5, 6, 7]
# 平均是5
# 標準差就是 1.58
[3, 4, 5, 6, 7]
# 平均是5
# 標準差就是 3.16
可以看出上方兩條列表平均都是5,可是下面那條列表的標準差卻比上面大,說明了下面那條列表比較不接近平均值,接著我們可以來看柴比雪夫不等式的涵義了,究竟大部分接近平均值的數值是多少,接近又有多接近,我們可以看下面描述